AI资讯新闻榜单内容搜索-Flash Atte

Flash Attention作者最新播客：英伟达GPU统治三年内将终结

英伟达还能“猖狂”多久？——不出三年！实现AGI需要新的架构吗？——不用，Transformer足矣！ “近几年推理成本下降了100倍，未来还有望再降低10倍！” 这些“暴论”，出自Flash Attention的作者——Tri Dao。

来自主题: AI资讯

9437 点击 2025-09-29 22:06

兼得快与好！训练新范式TiM，原生支持FSDP+Flash Attention

生成式AI的快与好，终于能兼得了？

来自主题: AI技术研报

9538 点击 2025-09-16 10:43

腾讯混元A13B用130亿参数达到千亿级效果，Flash Attention作者点赞

腾讯混元，在开源社区打出名气了。

来自主题: AI资讯

8367 点击 2025-07-15 12:01

无需CUDA代码给H100加速33%-50%，Flash Attention作者新作火了

无需CUDA代码，给H100加速33%-50%！ Flash Attention、Mamba作者之一Tri Dao的新作火了。

来自主题: AI技术研报

11277 点击 2025-07-11 16:06

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

在 ChatGPT 爆火两年多的时间里，大语言模型的上下文窗口长度基准线被拉升，以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。

来自主题: AI技术研报

9195 点击 2025-03-12 14:53

通过打包 Flash Attention 来提升 Hugging Face 训练效率

现在，在 Hugging Face 中，使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容，这要归功于一个最近的 PR 以及新的 DataCollatorWithFlattening。它可以在保持收敛质量的同时，将训练吞吐量提高多达 2 倍。继续阅读以了解详细信息！

来自主题: AI资讯

4958 点击 2024-09-18 15:44

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报

7854 点击 2024-05-12 15:49

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

前段时间，Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区，其架构与 GPT-4 非常相似，很多人将其形容为 GPT-4 的「缩小版」。

来自主题: AI技术研报

6909 点击 2024-01-01 11:08